智能论文笔记

KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks

Gyeongmin Kim , Jinsung Kim , Junyoung Son , Heuiseok Lim

分类：自然语言处理 | 人工智能

2022-09-01

随着数字化的传统文化遗产文件迅速增加，导致对保存和管理的需求增加，对实体的实际认可和阶级的典型认识已成为必不可少的。为了实现这一目标，我们提出了Kochet - 韩国文化遗产语料库，用于典型实体相关的任务，即指定的实体识别（NER），关系提取（RE）和实体键入（ET）。根据政府附属组织的数据构建指南的文化遗产专家的建议，科切特分别由NER，RE和ET任务的112,362、38,765、113,198个示例组成，涵盖了与韩国文化遗产有关的所有实体类型。此外，与现有的公共语料库不同，可以允许经过修改的重新分配。我们的实验结果使Kochet的实际可用性在文化遗产方面更有价值。我们还从统计和语言分析方面提供了Kochet的实际见解。我们的语料库可以在https://github.com/gyeeongmin47/kochet上免费获得。

translated by 谷歌翻译

GRASP: Guiding model with RelAtional Semantics using Prompt

Junyoung Son , Jinsung Kim , Jungwoo Lim , Heuiseok Lim

分类：自然语言处理 | 人工智能

2022-08-26

基于对话的关系提取（对话）任务旨在预测对话中出现的论点对之间的关系。大多数先前的研究都使用微调预训练的语言模型（PLM），仅具有广泛的功能来补充多个扬声器对话的低信息密度。为了有效利用PLM的固有知识，没有额外的层次，并考虑有关参数之间关系的分散的语义提示，我们提出了一个使用PINGT（grasp）使用关系语义的指导模型。我们采用基于及时的微调方法，并捕获给定对话的关系语义线索，其中1）参数意识的提示标记策略和2）关系线索检测任务。在实验中，GRASP在对话框数据集上以F1和F1C得分来实现最先进的性能，即使我们的方法仅利用PLM，而无需添加任何额外的层。

translated by 谷歌翻译

SoccerCPD: Formation and Role Change-Point Detection in Soccer Matches Using Spatiotemporal Tracking Data

Hyunsung Kim , Bit Kim , Dongwook Chung , Jinsung Yoon , Sang-Ki Ko

分类： (统计)机器学习

2022-06-22

在诸如足球和篮球之类的流体团队运动中，分析团队组合是从域名参与者的角度了解策略的最直观的方法之一。但是，现有方法要么假定团队组合在整个比赛中都是一致的，要么逐帧地编码，这不同意实际情况。为了解决这个问题，我们提出了一个名为SocCercPD的更改点检测框架，该框架区分了战术意图的形成和角色的变化与足球比赛的临时变化。我们首先将角色分配给玩家逐帧并执行两步更改点检测：（1）基于角色添加矩阵的序列和（2）基于角色变化矩阵的序列检测和（2）基于角色变更点检测角色排列顺序。使用域专家注释的地面真相对SOCCERCPD的评估表明，我们的方法准确地检测了战术变化的点，并估计每个细分市场的形成和角色分配。最后，我们介绍了域参与者可以轻松解释和使用的实用用例。

translated by 谷歌翻译

EXIT: Extrapolation and Interpolation-based Neural Controlled Differential Equations for Time-series Classification and Forecasting

Sheo Yon Jhin , Jaehoon Lee , Minju Jo , Seungji Kook , Jinsung Jeon , Jihyeon Hyeong , Jayoung Kim , Noseong Park

分类：机器学习

2022-04-19

受微分方程式启发的深度学习是最近的研究趋势，它标志着许多机器学习任务的最先进的表现。其中，具有神经控制的微分方程（NCDE）的时间序列建模被认为是突破。在许多情况下，基于NCDE的模型不仅比复发性神经网络（RNN）提供了更好的准确性，而且还可以处理不规则的时间序列。在这项工作中，我们通过重新设计其核心部分，即从离散的时间序列输入产生连续路径来增强NCDES。 NCDE通常使用插值算法将离散的时间序列样本转换为连续路径。但是，我们向i）提出建议，使用编码器解码器体系结构生成另一个潜在的连续路径，该架构对应于NCDE的插值过程，即我们的基于神经网络的插值与现有的显式插值相对于现有的显式插值以及II）解码器的外推超出了原始数据的时域的外推。因此，我们的NCDE设计可以同时使用插值和外推信息进行下游机器学习任务。在我们使用5个现实世界数据集和12个基线的实验中，我们的外推和基于插值的NCDES超过了非平凡的边缘的现有基线。

translated by 谷歌翻译

Learning source-aware representations of music in a discrete latent space

Jinsung Kim , Yeong-Seok Jeong , Woosung Choi , Jaehwa Chung , Soonyoung Jung

分类：机器学习

2021-11-26

近年来，已经提出了神经网络的方法作为一种方法，作为一种从音乐中的表示的方法，但它们不是人类可读性，并且几乎不可分析的人是人类的。为了解决这个问题，我们提出了一种新的方法，通过矢量量化变分自动编码器（VQ-VAE）来学习音乐的源自令人难以展示的陈述。我们训练我们的VQ-VAE以将输入混合物编码为一个整数的张量离散的百日利斯空间，并设计它们具有分解结构，使人类以源自感知方式达到人类潜伏的载体。本文还表明，我们可以通过在离散空间中估计潜伏向量来生成贝塞斯。

translated by 谷歌翻译

LightSAFT: Lightweight Latent Source Aware Frequency Transform for Source Separation

Yeong-Seok Jeong , Jinsung Kim , Woosung Choi , Jaehwa Chung , Soonyoung Jung

分类：机器学习

2021-11-24

由于它们的灵活性，适用性和扩展性，条件源分离引起了重要的关注。它们的性能通常不如现有的方法，例如单源分离模型。然而，最近提出的方法称为Lasaft-Net的方法表明，条件模型可以对现有的单源分离模型表现出相当的性能。本文提出了光明纸网，轻量级的Lasaft-net。作为基线，它提供了足够的SDR性能，以便在ISMIR 2021的音乐解映射挑战期间进行比较。本文还通过用TFC-TDF块替换编码器中的光纤块来增强现有的光线截网。我们的增强型光线牵线纸净额优于前一个参数。

translated by 谷歌翻译

Linear, or Non-Linear, That is the Question!

Taeyong Kong , Taeri Kim , Jinsung Jeon , Jeongwhan Choi , Yeon-Chang Lee , Noseong Park , Sang-Wook Kim

分类：人工智能 | 机器学习

2021-11-14

有关GCNS的非线性嵌入传播是否适合于基于GCN的推荐系统存在激烈的辩论。最近发现线性嵌入传播显示比非线性嵌入传播更好的精度。由于这种现象特别是在推荐系统中发现，因此需要仔细分析线性和非线性问题。因此，在这项工作中，我们重新审视I的问题）线性或非线性传播中的哪一个更好，II）用户/项目的哪些因素决定了嵌入传播的线性/非线性。我们提出了一种新型的线性和非线性协同滤波方法的混合方法（HMLet，发音为Hamlet）。在我们的设计中，在处理每个用户或项目节点时，存在线性和非线性传播步骤，并且我们的门控模块选择其中一个，这导致了基于线性和非线性GCN的共同协作滤波的混合模型（CF）。该建议的模型在三个公共基准数据集中产生最佳准确性。此外，我们根据我们的门控模块的选择，将用户/项目分类为以下三个类：全非线性（FNL），部分非线性（PNL）和全线性（FL）。我们发现，节点的中心性与其班级成员之间存在强烈的相关性，即重要用户/项目节点在传播步骤期间对非线性的更多偏好。为了我们的知识，我们是设计混合方法的第一个，并报告节点的图形中心和线性/非线性之间的相关性。所有HMLet代码和数据集可用于：https://github.com/qbxlvnf11/hmlet。

translated by 谷歌翻译

SPADE: Semi-supervised Anomaly Detection under Distribution Mismatch

Jinsung Yoon , Kihyuk Sohn , Chun-Liang Li , Sercan O. Arik , Tomas Pfister

分类：机器学习

2022-11-30

Semi-supervised anomaly detection is a common problem, as often the datasets containing anomalies are partially labeled. We propose a canonical framework: Semi-supervised Pseudo-labeler Anomaly Detection with Ensembling (SPADE) that isn't limited by the assumption that labeled and unlabeled data come from the same distribution. Indeed, the assumption is often violated in many applications - for example, the labeled data may contain only anomalies unlike unlabeled data, or unlabeled data may contain different types of anomalies, or labeled data may contain only 'easy-to-label' samples. SPADE utilizes an ensemble of one class classifiers as the pseudo-labeler to improve the robustness of pseudo-labeling with distribution mismatch. Partial matching is proposed to automatically select the critical hyper-parameters for pseudo-labeling without validation data, which is crucial with limited labeled data. SPADE shows state-of-the-art semi-supervised anomaly detection performance across a wide range of scenarios with distribution mismatch in both tabular and image domains. In some common real-world settings such as model facing new types of unlabeled anomalies, SPADE outperforms the state-of-the-art alternatives by 5% AUC in average.

translated by 谷歌翻译

SPI-GAN: Distilling Score-based Generative Models with Straight-Path Interpolations

Jinsung Jeon , Noseong Park

分类：机器学习 | 人工智能

2022-06-29

基于得分的生成模型（SGM）是最近提出的深层生成任务范式，现在显示出最新的采样性能。众所周知，原始SGM设计解决了生成三元素的两个问题：i）取样质量，ii）采样多样性。但是，三元素的最后一个问题没有解决，即，众所周知，他们的训练/采样复杂性很高。为此，将SGM蒸馏成更简单的模型，例如生成对抗网络（GAN），目前正在引起很多关注。我们提出了一种增强的蒸馏方法，称为直透插值GAN（SPI-GAN），可以将其与最新的基于快捷方式的蒸馏方法进行比较，称为Denoising扩散GAN（DD-GAN）。但是，我们的方法对应于一种极端方法，该方法不使用反向SDE路径的任何中间快捷方式，在这种情况下，DD-GAN无法获得良好的结果。然而，我们的直径插值方法极大地稳定了整体训练过程。结果，就CIFAR-10，Celeba-HQ-256和Lsun-Church-256的采样质量/多样性/时间而言，SPI-GAN是最佳模型之一。

translated by 谷歌翻译

Invariant Structure Learning for Better Generalization and Causal Explainability

Yunhao Ge , Sercan Ö. Arik , Jinsung Yoon , Ao Xu , Laurent Itti , Tomas Pfister

分类：机器学习 | (统计)机器学习

2022-06-13

学习数据背后的因果结构对于改善概括和获得高质量的解释是无价的。我们提出了一个新颖的框架，不变结构学习（ISL），旨在通过利用概括作为指示来改善因果结构发现。 ISL将数据分配到不同的环境中，并通过施加一致性约束来学习一个在不同环境中不变的结构。然后，聚集机制基于图形结构选择最佳分类器，该图形结构与从单个环境中学到的结构相比，更准确地反映了数据中的因果机制。此外，我们将ISL扩展到一个自制的学习环境，在该设置中，准确的因果结构发现不依赖任何标签。这种自我监督的ISL通过迭代设置不同的节点作为目标来利用不变的因果关系。在合成和现实世界数据集上，我们证明了ISL准确地发现因果结构，优于替代方法，并且对具有显着分布变化的数据集产生了卓越的概括。

translated by 谷歌翻译